量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据 等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校 等行业30W+ 关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。
限量发售, 快来抢购吧!
前言
《Advance in Financial Machine Learning》的作者Marcos López de Prado,于今日发表了其在ADIA Lab的第一篇研究论文 Causal Factor Inversting: Can Factor Investing Become Scientific ,主要讨论了当前传统因子研究中的现状。很多人都说,当前的因子研究更多的是一门艺术而不是科学。如何根据因果推断的理论,按照科学发现的步骤进行因子研究,并有效避免研究过程的错误假设与错误结论,是本文探讨的主要内容。文章综合9个章节,从因果推断到蒙特卡洛实验,系统的梳理了因子投资与因果推断的相关内容。 作为号召学术界改变因子研究的现状,使用更科学的体系进行因子研究,Marcos López 也在Linkin上号召论文,并提供10万美金奖励: 接下来我们就为大家解读下本篇文章,详细内容参考原文: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4205613 关联性 VS 因果关系
学过统计的都清楚,关联性并不代表因果关系。但是关联性为什么存在,它与因果关系之间的关系,这是我们需要理清楚的。两个离散的随机变量X和Y,有且仅当 时,X和Y为统计上互相独立。也就是说,只要存在X和Y,满足 ,那么X和Y就是相关联的(或者称为互相依赖)。从条件概率的角度来说,当X与Y相互不独立时, 。例如,每月溺水人数(Y)与冰激凌的销量(X)是强相关的,也就是说一个月内溺水的概率(条件是观察冰淇淋在同一个月的销售情况)不等于某些人在一个月内溺水的无条件概率。但是并不清楚是否是冰激凌的销量导致了溺水。回答这个问题,需要引入一个比条件概率更微妙的概念:intervention(介入)。
数据生成过程是指生成观测数据的物理过程,该过程的主要取决于结构方程组。 在该系统中,当 Y是 X的函数时,我们称变量 X导致了变量Y,其中 X 导致Y 的结构方程称为因果机制。 可惜的是我们很少能弄清楚这样的生成过程,研究人员必须依靠根据观察样本估计的概率来推断系统的因果结构。 如果当设定X=x时(注意这里不是condition on X=x,设定X=x的过程称为介入),Y=y的可能性(likelihood)会增加,我们就认为变量X导致变量Y。 由于研究本身的限制,计量经济学的研究过程中缺失介入(intervention)的步骤,介入是指设定X的值。 条件上基于X=x与设定X=x的区别在于:前者是基于已有的已发生的样本数据,选择X=x的样本数据进行研究;后者是直接生成X=x的新的样本数据。 什么是因果推断?
因果推断主要研究一些方法,这些方法 用来确定一个大系统中特定变量的独立效应。 假设我们需要研究两个独立变量 中 对 的影响。令 表示当 设定为 时 的期望(treatment,试验组),令 表示当 设定为 时 的期望(control,对照组)。那么 对 的平均处理效应(Average treatment effect)为: ATE
一般来说,ATE不等于在观测样本中 为 和 的差异,即 。这个观测差又可以拆分为:
上述等式将观测差异分为了两个部分:实验组的平均干预效应(Average treatment effect on the treated,ATT)和自选择偏误(self-selection bias, SSB)。 因果推断的基本问题就是需要计算ATT,但其中 并不能直接观测到。 可以直接观测到,但与ATT间存在SSB的误差,并且SSB可能会很显著。 因果关系的研究提出了消除SSB的方法。这些研究大体上可以分为三种类型:
介入研究(interventional studies): 在一项对照实验中,科学家通过观察对X改变引起Y的改变,同时保持系统中其他变量不变。 自然实验(natural experiments): 有时介入性研究是不可能的,因为它们是不可行的,不道德的,或过于昂贵。在这种情况下,科学家可能会求助于自然实验或模拟干预。在自然实验(也称为准实验)中,受试者被分配到由自然或科学家影响之外的其他因子随机决定的实验组和对照组(Dunning[2012])。 模拟干预(simulated interventions): 介入研究和自然实验可以确定因果关系,因为随机分配确保SSB = 0。当不可能进行介入研究和自然实验时,研究人员仍然可以在因果图的帮助下进行模拟对照实验的观察性研究。与介入研究或自然实验不同,模拟干预无法证明这一点。但它可以根据假设的因果图,从观察性研究中估计因果效应的强度。假设的因果图编码了从观察中去除由混杂因子引入的SSB所需的信息(假设因果图是正确的)。 因子研究与因果推断
在实验科学(如物理、化学及生物等)的领域,通过干预研究提出和证伪因果机制相对简单。但在金融经济学的研究,并非如此。研究人员无法重现 2010 年 5 月 6 日闪电崩盘的金融状况,然后移除一些交易员,并观察股市价格是否仍然崩盘。与实验科学相比,这使金融经济学领域处于劣势。这种局限性的一个直接后果是, 在过去的 50 年里,因子投资研究人员一直专注于发表所发现的因子与股价之间的关联性,而没有对导致观察到的关联的因果机制进行理论化分析和证伪。 这可能会使大家悲观的认为因子投资不可能成为一项科学研究。事实并非如此,最近因果推断方面呢的进展为推动更科学化的进行因子投资的研究,开辟了一条新的道路。 科学理论是一种形式为“𝑋通过机制𝑀导致𝑌”的可证伪陈述。观察到的关联相当于现象学证据,但没有上升到科学知识的地位,有三个原因: 观察到的关联可能是a型假的,由于p-hacking或后验过拟合; 即使是因果关系,这种关联也不能解释𝑋导致𝑌的可证伪机制𝑀。 科学理论对投资者来说至少有两个原因:首先,因果关系是投资效率的必要条件。因果模型允许投资者将风险和业绩归因于导致现象的变量。有了正确的归因,投资者可以建立一个只暴露于回报风险的投资组合,并以投资效率为目标。相比之下,关联模型错误地归因风险和业绩,从而阻止投资者建立有效的投资组合。其次,因果模型能够进行反事实推理,从而以连贯和前瞻性的方式对投资组合进行压力测试。 相比之下,关联模型不能回答反事实的问题,比如𝑌对一个尚未观察到的情景𝑋会有什么影响,从而使那些依赖关联的人暴露在黑天鹅事件面前。 尽管如此,投资文献中的大多数期刊文章都提出了关联声明,并提出了旨在从这些关联中获利的投资策略。例如,作者可能会发现观察𝑋经常先于事件𝑌的发生,确定𝑋和𝑌之间的相关性在统计上是显著的,并基于这种关联性提出一个交易规则。 这个推理需要注意的是,概率陈述“𝑋通常在𝑌之前”并没有提供证据证明𝑌是𝑋的函数,因此𝑋和𝑌之间的关系是巧合或不可靠的。一种可能性是变量𝑋和𝑌可能在过去偶然出现关联(A型假概率),在这种情况下,投资策略可能会失败。另一种可能性是,𝑋和𝑌是相关的,即使𝑌不是𝑋的函数,例如,由于混淆变量𝑍,研究人员未能控制,或由于对撞因子𝑍,研究人员误认为混淆。 这些规范错误使得𝑋和𝑌之间的相关性可能会随着时间的推移而改变,甚至会出现反向符号,使投资者面临系统性损失。 本文的主要结论是,在目前的研究中,因子投资未能实现其目标。 在学术上,这是一项数据挖掘工作,已经产生了无数的A型和B型虚假发现。在商业上,它被错误地宣传为一种科学产品,而且它未能提供统计上显著的回报,与它的推动者产生的利润预期相反。 为了找到前进的道路,因子研究人员必须首先了解他们是如何最终得到一个黑盒的。部分原因在于商业利益对金融学术界的牢牢控制。有意重新建立因果因子投资更坚实基础的金融学者,应寻求与主权财富管理公司和捐赠基金等非商业资产管理公司的研究部门合作。 几乎所有因子投资文献的期刊文章都否认因子模型的因果内容。作者没有确定与观察样本一致的因果图,他们用关联术语来证明他们所选择的模型规范(例如,优化决定系数),并且他们很少理论化一个能够解释他们的发现的可证伪因果机制。 Chen和Pearl[2013]回顾了计量经济学中最流行的六本教科书,得出的结论是它们“严重偏离了因果分析的现代标准”。Chen和Pearl发现,大多数教科书否认计量经济学方程的因果内容,并混淆了因果与关联。没有因果理论,几乎不可能彻底证伪他们的主张。收集足够的样本外证据来确定这种关联是假的可能需要几十年的时间,而样本内证据非常容易受到p-hacking和过拟合的影响。回测或因子模型的结果是另一种关联主张,容易出现同样的误解和虚假主张。 即使持有价值股确实会导致投资组合表现优于市场,但无论是因子模型还是回测测试都无法告诉我们原因。想想2017年底至2022年初价值型基金经历的巨额亏损吧。对于“为什么价值型基金表现如此糟糕?”这个问题,投资者从来没有得到过一个直接的答案。原因在于,在缺乏因果理论的情况下,没有人知道为什么价值型基金一开始就应该表现良好,也没有人知道是什么改变了价值型基金的𝛽´。资产管理公司不会向客户承认自己的困惑,因为这会招致大规模赎回。 要回答“为什么”这个问题,需要一个可证伪的因果机制,而这个机制至今仍不为价值投资所知。由于省略了因果机制,通过归纳论证,因子投资策略像关联投资策略一样被推广。例如,研究人员可能会发现价值和动量策略已经盈利多年(枚举归纳)或在许多不同的地区(变异归纳)。这一关联发现产生了一种预期,即无论价值和势头的未知原因是什么,也无论它们的盈利机制是什么,历史将继续重演,即使这种信念没有科学演绎的基础。具有讽刺意味的是,商业资产管理公司经常要求投资者接受免责声明,如“过去的业绩不能预示未来的结果”,这与作者推广和经理销售给客户的归纳声明直接矛盾。 为什么要基于因果推断进行因子研究?
回答“为什么”的问题不仅仅是一个学术追求。因果因子理论对所有类型的投资者都非常有益,原因如下: 1、效率: 因果模型可以正确地归因风险和业绩。有了适当的风险和绩效归因,研究人员可以建立投资组合,集中于有回报的风险,对冲无回报的风险。 2、可解释性: 每个机构投资者都有义务向其受益所有人解释为什么他们可能不得不推迟他们的计划(例如,退休)。 3、透明度: 因果图明确了理论机制中涉及的所有假设。基于因果理论的投资策略不是黑盒。 4、再现性: 只有因果解释才能减少非因果关联的可能性,并提供一些保证,只要机制存在,现象就会继续发生。 5、适应性: 建立在关联关系上的投资策略的盈利能力依赖于联合分布参数的稳定性,而联合分布参数又依赖于整个因果图(变量水平和参数)的稳定性。相比之下,基于因果关系的投资策略对不涉及因果路径参数的变化具有弹性(见6.4.2.1节)。这使得因果投资策略比联想投资策略更可靠。 6、外推: 只有由因果理论支持的投资策略,才能通过监测触发黑天鹅事件的条件(例如,基于PIN理论的流动性策略在2010年闪电崩盘期间表现良好),从黑天鹅事件中幸存下来并从中获利。 7、监督: 可以用更直接和更直接的方式评估因果机制的有效性,而不是估计绩效结构中断的可能性。这一属性在金融等复杂动态系统中至关重要:(i)在因果机制减弱时,投资策略中的投资者可能能够在损失复合到假设检验检测到结构断裂之前撤资;(ii)因果机制使因子择时、动态调仓和战术资产配置成为可能。 8、可改进性: 随着研究人员对负责观察的机制了解得更多,因果理论可以被完善。 这些都是使投资策略具有吸引力和值得信赖的属性,而这正是当前因子投资所缺乏的。金融经济学家采用因果推理方法,有可能将投资转变为一门真正的科学学科。他们最适合注入、明确和论证额外的统计信息,以补充和丰富统计学家的工作。对因果关系研究感兴趣的金融经济学家,可以很好地与非商业资产管理公司合作,比如主权财富基金和捐赠基金。这些机构投资者与商业利益没有冲突,他们的目标与受益所有人的目标一致。 “因果因子投资”这一新学科的特点将是适应和采用从因果发现和实践演算到研究导致资产回报差异的风险特征的工具。每年,新的另类数据集以越来越快的速度出现,使研究人员能够进行自然实验和其他类型的因果推断,这在20世纪是不可能的。因果因子投资将服务于(关联)因子投资无法达到的社会目的: 帮 助资产管理公司以只有科学方法才能实现的透明度和信心履行其受托责任。为了实现这一崇高的目标,科学投资的曙光,因子投资界必须首先从它的协会沉睡中醒来。 点击阅读原文,快来抢购吧!
▼▼▼